Multilabel Text Classification Done Right Using Scikit-learn and Stacked Generalization
2022/06
データが公開されていないようで再現させるのが難しそう
It has two features: problem containing math problems in LaTeX format and tags populated with one or two classes among algebra, combinatorics, geometry, or number theory.
説明変数:LaTeX記法で書かれた問題文(problem)
目的変数:問題のタグ(tags)
データセットサイズ:22790
You will build your model step by step starting from the simplest and adding complexity along the way:
Random prediction
Rule-based prediction
Machine Learning
前処理:正規表現でLaTeX記法を取り除く
recursive regular expressions
train / validation / test = 70% / 15% / 15%
ルールベース:特定の語を含んでいたらtagを予測
機械学習:tfidfのngram range 2通り × 7つのアルゴリズム
ベスト3をstacking(f1 0.85)
You also notice class imbalance and know how to treat it using the class_weight parameter in scikit-learn.
TODO class_weight
TODO Switcherを作ってのグリッドサーチのやり方は参考になりそう
dvcで管理しているが、外部ストレージにないので再現のために入手できなさそう